A planilha contém 2338 linhas, e cada uma representa um aluno, que aparece uma única vez. Cada observação é composta de 7 variáveis:
Abaixo, a visualização das primeiras 5 linhas da tabela:
| Período do ingresso | Turno | Turma | Id. GRACE | Situação | Tipo de ingresso | Sexo | |
|---|---|---|---|---|---|---|---|
| 1 | 2005/1 | Diurno | 102 | 1 | Término | Vestibular | Masculino |
| 2 | 2005/1 | Diurno | 102 | 2 | Outros | Vestibular | Masculino |
| 3 | 2005/1 | Diurno | 102 | 3 | Término | Vestibular | Masculino |
| 4 | 2005/1 | Diurno | 102 | 4 | Cancelamento trancamento 4 semestres | Vestibular | Masculino |
| 5 | 2005/1 | Diurno | 102 | 5 | Término | Vestibular | Masculino |
Tipo: categórica
Classes: 2005/1, 2006/1, (…), 2017/1
Registro do período em que o aluno ingressou no curso de Sistemas de Informação. Caso tenha acontecido reingresso, foi mantido apenas o último registro. Como o ingresso só ocorre durante o primeiro semestre do ano, pode-se entender essa variável, também, como o ano de ingresso do aluno no curso de Sistemas de Informação.
Tipo: categórica
Classes: Diurno, Noturno
O turno ao qual o aluno pertencia no momento em que foi feito seu último registro no sistema da USP. Não é uma variável confiável para analisar o turno de ingresso do aluno, pois o histórico de transferência interna não é levado em consideração.
Tipo: numérica (discreta)
Período: apenas 102 ou 104
A turma está relacionada com o turno em que o aluno pertencia quando foi feito seu último registro no sistema e, por isso, também não é uma variável confiável para a análise do turno de ingresso. A turma 102 está relacionada ao período diurno e, a turma 104, ao período noturno.
Tipo: numérica (discreta)
Período: de 1 a 2338, de 1 em 1
A variável em questão serve como um índice para a identificação individual de cada aluno.
Tipo: categórica
Classes: 18 classes demonstradas a seguir
Cada aluno, no sistema da USP, pode ter inúmeros registros de “Situação”. Neste conjunto de dados, no entanto, foi mantido apenas o último registro referente ao aluno no sistema da USP. A variável pode apresentar os seguintes valores:
| Situação | Freq |
|---|---|
| Abandono 2 semestres sem matrícula | 39 |
| Abandono 3 semestres sem matrícula | 29 |
| Ativo | 714 |
| Cancelamento 0 crédito | 25 |
| Cancelamento 0 crédito em dois semestres | 98 |
| Cancelamento menos 20% créditos 2 semestres | 57 |
| Cancelamento menos 20% dos créditos | 51 |
| Cancelamento trancamento 4 semestres | 114 |
| Cancelamento trancamento 5 semestres | 1 |
| Cancelamento ultrapassou prazo máximo | 47 |
| Desistência a pedido | 85 |
| Encerramento novo ingresso | 46 |
| Ingressante sem Frequência | 59 |
| Outros | 10 |
| Reativado | 38 |
| Término | 824 |
| Trancado | 36 |
| Transferência USP | 65 |
Pode-se notar que a grande quantidade de classes para esta variável se dá, principalmente, pelo alto nível de detalhamento sobre a presente situação do aluno. Para fins práticos, nesta primeira análise, a variável Situação foi simplificada da seguinte maneira:
| SituaçãoNova | Freq |
|---|---|
| Ativo | 714 |
| Outros | 139 |
| Término | 824 |
| Desligado | 661 |
Resumindo, temos as seguintes classes:
Tipo: categórica
Classes: 18 classes demonstradas a seguir
O tipo do ingresso do aluno no curso de Sistemas de Informação. No caso de reingresso, foi mantido apenas o último registro de ingresso. A variável apresenta os seguintes valores:
| Tipo.de.ingresso | Freq |
|---|---|
| Graduado | 2 |
| Outros | 2 |
| Transf Externa | 25 |
| Transf USP | 37 |
| Vestibular | 1356 |
| Vestibular - SISU | 48 |
| Vestibular - SISU LE | 16 |
| Vestibular 2 Lista | 359 |
| Vestibular 3 Lista | 190 |
| Vestibular 4 Lista | 101 |
| Vestibular 5 Lista | 75 |
| Vestibular 6 Lista | 63 |
| Vestibular 7 Lista | 26 |
| Vestibular 8 Lista | 8 |
| Vestibular SISU LE 1 | 14 |
| Vestibular SISU LE 2 | 6 |
| Vestibular SISU LE 3 | 7 |
| Vestibular SISU LE 4 | 3 |
Da mesma forma que tratamos as classes de Situação, simplificaremos a variável de Tipo de ingresso por não precisarmos deste nível de detalhamento nesta análise inicial. A simplificação assume a seguinte forma:
| Tipo.de.ingresso.novo | Freq |
|---|---|
| FUVEST | 2178 |
| Outros | 66 |
| SISU | 94 |
Resumindo, temos as seguintes classes:
Tipo: categórica
Classes: Feminino, Masculino, ?
O sexo biológico do referido estudante.
Como uma análise inicial, decidiu-se delinear o perfil dos alunos em relação à variável “Situação”, levando em consideração todo o período de 2005 a 2017.
Olhando para o perfil da situação das mulheres no curso, é possível perceber que a maioria, em relação ao número total de mulheres, está formada. Ao olhar para o perfil dos homens no curso, no entanto, pode-se chegar à mesma conclusão: a de que a maioria, em relação ao número total de homens, está formada. Para tentar chegar a alguma conclusão relevante, analisaremos os dois conjuntos de dados num mesmo gráfico de barras:
Analisando o gráfico acima, fica clara a diferença exorbitante entre o número absoluto de mulheres e homens no curso, em todas as categorias da variável “Situação”. A abordagem de números absolutos, no entanto, não nos dá uma boa visão das proporções em relação aos gêneros. A seguir, é feita uma abordagem utilizando porcentagens em relação aos gêneros. Aqui, a porcentagem de mulheres é calculada em relação ao número total de mulheres no curso durante o período de tempo especificado, e a porcentagem de homens, em relação ao número total de homens, durante o mesmo período.
Ao observar o gráfico acima, é interessante notar que a porcentagem de mulheres ativas é maior do que a de homens ativos, e o mesmo ocorre com a porcentagem de formados. A porcentagem de alunos desligados, por sua vez, é maior em relação aos homens do que em relação às mulheres.
mulheresL1F = sum(as.numeric(dados[dados$Sexo == "Feminino", ]$`Tipo de ingresso` == "Vestibular"))
mulheresL2F = sum(as.numeric(dados[dados$Sexo == "Feminino", ]$`Tipo de ingresso` == "Vestibular 2 Lista"))
mulheresL3F = sum(as.numeric(dados[dados$Sexo == "Feminino", ]$`Tipo de ingresso` == "Vestibular 3 Lista"))
mulheresL4F = sum(as.numeric(dados[dados$Sexo == "Feminino", ]$`Tipo de ingresso` == "Vestibular 4 Lista"))
mulheresL5F = sum(as.numeric(dados[dados$Sexo == "Feminino", ]$`Tipo de ingresso` == "Vestibular 5 Lista"))
mulheresL6F = sum(as.numeric(dados[dados$Sexo == "Feminino", ]$`Tipo de ingresso` == "Vestibular 6 Lista"))
mulheresL7F = sum(as.numeric(dados[dados$Sexo == "Feminino", ]$`Tipo de ingresso` == "Vestibular 7 Lista"))
mulheresL8F = sum(as.numeric(dados[dados$Sexo == "Feminino", ]$`Tipo de ingresso` == "Vestibular 8 Lista"))
FMulheres = c(mulheresL1F, mulheresL2F, mulheresL3F, mulheresL4F, mulheresL5F, mulheresL6F, mulheresL7F, mulheresL8F)
porcentFMulheres = FMulheres/sum(FMulheres)
pie(FMulheres, labels = paste(paste(seq(from=1, to=8, by=1), " (", sep = "", round(porcentFMulheres*100)), "%)", sep = ""), col = c("#9ADDE0", "#4BBBBB", "#0F9593", "#0D7A79"), density = 150, clockwise = T, main = "Lista da Fuvest em que mulheres ingressaram (2005 - 2017)")
homensL1F = sum(as.numeric(dados[dados$Sexo == "Masculino", ]$`Tipo de ingresso` == "Vestibular"))
homensL2F = sum(as.numeric(dados[dados$Sexo == "Masculino", ]$`Tipo de ingresso` == "Vestibular 2 Lista"))
homensL3F = sum(as.numeric(dados[dados$Sexo == "Masculino", ]$`Tipo de ingresso` == "Vestibular 3 Lista"))
homensL4F = sum(as.numeric(dados[dados$Sexo == "Masculino", ]$`Tipo de ingresso` == "Vestibular 4 Lista"))
homensL5F = sum(as.numeric(dados[dados$Sexo == "Masculino", ]$`Tipo de ingresso` == "Vestibular 5 Lista"))
homensL6F = sum(as.numeric(dados[dados$Sexo == "Masculino", ]$`Tipo de ingresso` == "Vestibular 6 Lista"))
homensL7F = sum(as.numeric(dados[dados$Sexo == "Masculino", ]$`Tipo de ingresso` == "Vestibular 7 Lista"))
homensL8F = sum(as.numeric(dados[dados$Sexo == "Masculino", ]$`Tipo de ingresso` == "Vestibular 8 Lista"))
FHomens = c(homensL1F, homensL2F, homensL3F, homensL4F, homensL5F, homensL6F, homensL7F, homensL8F)
porcentFHomens = FHomens/sum(FHomens)
pie(FHomens, labels = paste(paste(seq(from=1, to=8, by=1), " (", sep = "", round(porcentFHomens*100)), "%)", sep = ""), col = c("#FFC971", "#FFB627", "#FF9505", "#E2711D"), density = 150, clockwise = T, main = "Lista da Fuvest em que homens ingressaram (2005 - 2017)")
barplot(rbind(FMulheres, FHomens), main = "Lista da Fuvest em que alunos ingressaram (2005 - 2017)", col = c("#4BBBBB", "#FFB627"), density = 100, border = NA, ylab = "Número de alunos", xlab = "Lista de ingresso", names.arg = seq(from=1, to=8, by=1), ylim = c(0, 1200), beside = T, legend.text = c("Mulheres", "Homens"))
barplot(rbind(porcentFMulheres, porcentFHomens), main = "Lista da Fuvest em que alunos ingressaram (2005 - 2017)", col = c("#4BBBBB", "#FFB627"), density = 100, border = NA, ylab = "Porcentagem de alunos (por gênero)", xlab = "Lista de ingresso", names.arg = seq(from=1, to=8, by=1), ylim = c(0, 0.7), beside = T, legend.text = c("Mulheres", "Homens"))